AAPA: Anclaje Adversarial de Preferencias para Modelos de Lenguaje
AAPA mejora el post-entrenamiento de LLMs con anclaje adversarial. Sin inferencia online, logra hasta 5.77% de mejora en Qwen3-0.6B. ¡Prueba este método!
AAPA mejora el post-entrenamiento de LLMs con anclaje adversarial. Sin inferencia online, logra hasta 5.77% de mejora en Qwen3-0.6B. ¡Prueba este método!